尽管自我监督的学习技术通常用于通过建模多种观点来从未标记的数据中挖掘隐性知识,但尚不清楚如何在复杂且不一致的环境中执行有效的表示学习。为此,我们提出了一种方法,特别是一致性和互补网络(Coconet),该方法利用了严格的全局视图一致性和局部跨视图互补性,以维护正则化,从而从多个视图中全面学习表示形式。在全球阶段,我们认为关键知识在观点之间隐含地共享,并增强编码器以从数据中捕获此类知识可以提高学习表示表示的可区分性。因此,保留多种观点的全球一致性可确保获得常识。 Coconet通过利用基于广义切成薄片的Wasserstein距离利用有效的差异度量测量来对齐视图的概率分布。最后,在本地阶段,我们提出了一个启发式互补性因素,该因素是跨观看歧视性知识的,它指导编码者不仅要学习视图的可辨别性,而且还学习跨视图互补信息。从理论上讲,我们提供了我们提出的椰子的基于信息理论的分析。从经验上讲,为了研究我们方法的改善,我们进行了足够的实验验证,这表明椰子的表现优于最先进的自我监督方法,这证明了这种隐含的一致性和互补性可以增强正则化的能力潜在表示的可区分性。
translated by 谷歌翻译
We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
translated by 谷歌翻译
在立体声视觉中,自相似或平淡的区域可能使得很难匹配两个图像之间的补丁。基于主动立体声的方法通过在场景上投射伪随机模式来减轻此问题,以便可以在没有歧义的情况下识别图像对的每个贴片。但是,投影模式显着改变了图像的外观。如果这种模式充当对抗性噪声的一种形式,则可能对基于深度学习的方法的性能产生负面影响,这现在是密集立体声视觉的事实上的标准。在本文中,我们提出了Active-Passive Simstereo数据集和相应的基准测试,以评估立体声匹配算法的被动立体声和活动立体声图像之间的性能差距。使用提出的基准测试和额外的消融研究,我们表明特征提取和匹配的模块选择了20个选择的基于深度学习的立体声匹配方法,可以推广到主动立体声,没有问题。但是,由于二十个体系结构(ACVNet,Cascadestereo和Stereonet)中三个的差异细化模块由于对输入图像的外观的依赖而受到主动立体声模式的负面影响。
translated by 谷歌翻译
立体声视觉最新发展的主要重点是如何在被动立体声视觉中获得准确的密集差异图。与被动立体声相比,主动视觉系统可以更准确地估计致密差异。但是,子像素准确的差异估计仍然是一个空的问题,几乎没有得到关注。在本文中,我们提出了一种新的学习策略,以训练神经网络,以估计半密集的主动立体声视觉的高质量子像素差异图。关键的见解是,如果神经网络能够共同学习如何完善差异图,同时使像素不足以纠正差异估计值,那么它们的准确性就可以翻倍。我们的方法基于贝叶斯建模,在该模型中,经过验证和无效的像素由它们的随机属性定义,从而使模型可以学习如何自行选择哪些像素值得关注。使用主动立体声数据集(例如Active-Passive Simstereo),我们证明了所提出的方法优于当前最新的活动立体声模型。我们还证明,所提出的方法与米德尔伯里数据集上的最新被动立体声模型进行了优惠比较。
translated by 谷歌翻译
三维(3D)医学图像的产生可能具有巨大的应用潜力,因为它考虑了3D解剖结构。但是,有两个问题可以防止有效培训3D医疗生成模型:(1)3D医学图像的获取和注释非常昂贵,导致培训图像不足,(2)大量参数是参与3D卷积。为了解决这两个问题,我们提出了一种名为3D Split&Shuffle-Gan的新型GAN模型。为了解决3D数据稀缺问题,我们首先使用丰富的图像切片预先培训二维(2D)GAN模型,并夸大2D卷积权重以改善3D GAN的初始化。为GAN模型的生成器和鉴别器提出了新型的3D网络体系结构,以显着减少参数的数量,同时保持图像生成的质量。研究了许多体重通胀策略和参数有效的3D架构。对心脏(Stanford Aimi冠状动脉钙)和大脑(阿尔茨海默氏病神经成像计划)的实验表明,所提出的方法会导致改善的3D图像产生质量,参数较少。
translated by 谷歌翻译
尽管生成的对抗网络能够综合面部,猫,风景或几乎任何其他单一类别的高度逼真的图像,但逐文的油漆综合引擎可以 - 从单个文本提示中 - 合成具有无休止的类别的现实图像,与看似无尽的类别合成任意配置和组合。这项强大的技术为照片法医社区带来了新的挑战。由于文本的油漆不是基于明确的几何或物理模型,以及人类视觉系统对照明不一致的普遍不敏感的事实,我们提供了对DALL-E-2合成图像的照明一致性的初步探索基于基于法医的分析将证明在检测这种新的合成介质时富有成果。
translated by 谷歌翻译
光学图像和视频中的小对象检测(SOD)是一个具有挑战性的问题,即使是最先进的通用对象检测方法也无法准确定位和识别此类对象。通常,由于较大的摄像头距离,小物体出现在现实世界中。由于小物体仅占据输入图像中的一个小区域(例如,少于10%),因此从这样的小区域中提取的信息并不总是足够丰富,足以支持决策。在深度学习和计算机愿景的界面上工作的研究人员正在开发多学科策略,以增强基于SOD深度学习的方法的性能。在本文中,我们对2017年至2022年之间发表的160篇研究论文进行了全面评论,以调查这一不断增长的主题。本文总结了现有文献,并提供了一种分类法,以说明当前研究的广泛了解。我们研究了如何在海上环境中提高小物体检测的性能,在海上环境中,提高性能至关重要。通过建立通用和海上SOD研究之间的联系,已经确定了未来的方向。此外,讨论了用于通用和海上应用程序的SOD的流行数据集,并提供了一些数据集的最新方法的众所周知的评估指标。
translated by 谷歌翻译
在现代自治堆栈中,预测模块对于在其他移动代理的存在下计划动作至关重要。但是,预测模块的失败会误导下游规划师做出不安全的决定。确实,轨迹预测任务固有的高度不确定性可确保这种错误预测经常发生。由于需要提高自动驾驶汽车的安全而不受损害其性能的需求,我们开发了一个概率运行时监视器,该监视器检测到何时发生“有害”预测故障,即与任务相关的失败检测器。我们通过将轨迹预测错误传播到计划成本来推理其对AV的影响来实现这一目标。此外,我们的检测器还配备了假阳性和假阴性速率的性能度量,并允许进行无数据校准。在我们的实验中,我们将检测器与其他各种检测器进行了比较,发现我们的检测器在接收器操作员特征曲线下具有最高的面积。
translated by 谷歌翻译
腹主动脉瘤(AAA)是一种血管疾病,其中主动脉的一部分肿大,削弱其壁并可能破裂血管。腹部超声已用于诊断,但由于其图像质量和操作员的依赖性有限,通常需要进行CT扫描进行监测和治疗计划。最近,腹部CT数据集已成功用于训练深神经网络以进行自动主动脉分割。因此,可以利用从这项解决的任务中收集的知识来改善我们的AAA诊断和监测分段。为此,我们提出了Cactuss:一种常见的解剖CT-US空间,它是CT和美国模式之间的虚拟桥梁,以实现自动AAA筛选超声检查。仙人掌利用公开可用的标记数据来学习基于从美国和CT继承属性的中介表示。我们在此新表示中训练分割网络,并采用附加的图像到图像翻译网络,使我们的模型能够在真实的B模式图像上执行。与完全监督的方法进行的定量比较证明了在骰子评分和诊断指标方面的能力,这表明我们的方法还满足了AAA扫描和诊断的临床要求。
translated by 谷歌翻译
已知深度神经网络(DNN)容易受到用不可察觉的扰动制作的对抗性示例的影响,即,输入图像的微小变化会引起错误的分类,从而威胁着基于深度学习的部署系统的可靠性。经常采用对抗训练(AT)来通过训练损坏和干净的数据的混合物来提高DNN的鲁棒性。但是,大多数基于AT的方法在处理\ textit {转移的对抗示例}方面是无效的,这些方法是生成以欺骗各种防御模型的生成的,因此无法满足现实情况下提出的概括要求。此外,对抗性训练一般的国防模型不能对具有扰动的输入产生可解释的预测,而不同的领域专家则需要一个高度可解释的强大模型才能了解DNN的行为。在这项工作中,我们提出了一种基于Jacobian规范和选择性输入梯度正则化(J-SIGR)的方法,该方法通过Jacobian归一化提出了线性化的鲁棒性,还将基于扰动的显着性图正规化,以模仿模型的可解释预测。因此,我们既可以提高DNN的防御能力和高解释性。最后,我们评估了跨不同体系结构的方法,以针对强大的对抗性攻击。实验表明,提出的J-Sigr赋予了针对转移的对抗攻击的鲁棒性,我们还表明,来自神经网络的预测易于解释。
translated by 谷歌翻译